IBM电话语音技术及其应用（一）

2000-08-30　来源：光明日报　IBM中国研究中心秦勇我有话说

有了成熟的语音识别、语音合成技术作基础，电话机将成为信息家电的一个重要角色。

在IBM中国研究中心的实验室里，有两台连接INTERNET的服务器，用户通过拨打相应的电话号码，就可以用自然语音同它们交谈，从INTERNET上查询信息。在公司内部员工之间只要直接对着座位上的电话机说找某某，服务器就会自动识别并连接被叫者。

IBMViaVoice中文版电话语音内核和工具库是IBM公司的中文ViaVoice语音识别技术应用于电话通信领域的最新成果，它提供了一个开放式的语音识别引擎和一套完善的应用开发环境，使语音识别和合成功能可以被方便快速地集成到电话系统中，为电话系统添加人性化的交互界面。

在电话信道上实现语音识别功能，存在着诸多挑战。

复杂多变的信道噪音电话信号在传输过程中，要经过若干个交换机以及电话线的调制，引入一定的信号失真和畸变是难免的，同时音量也较低。IBM的语音识别服务器在对接受到的电话语音进行数字信号处理时，首先处理信号的背景噪音，以最大限度地降低信道干扰。

多种电话终端用户在使用电话机同语音识别系统对话时，使用的电话机各不相同。为了克服终端设备带来的干扰，IBM采集了大量真实的语音数据，最终的语音识别系统正是以这些真实的电话语音数据为对象，使用复杂的统计训练算法得到的。

说话人的多变性IBM的语音识别系统有两种手段对付复杂的口音：一是使用说话人分类系统，用专门的识别系统将说话人归类到相应的子类中；二是大量采集各地的带有地域特点的语音数据，训练识别系统。

说话内容的随意性用户在对着电话机说话时，更多使用的是自然的口语，IBM的电话语音识别系统可以自动提取用户的关键词，理解说话人的语意，作出正确的响应，并根据上下文同说话人对话。

混合语言的使用外来语的增多加大了语音识别的难度，IBM的研究和开发人员正在努力攻克这一难题。

INTERNET上的大量信息都是中英文的混合体，语音合成系统也面临着混合语言的挑战。老的语音合成系统工作原理比较简单，合成效果很不理想。IBM公司开发出了一套基于统计学的处理算法，根据上千句的发音样本，自动训练语音合成系统。这样，通过采集某个人的上千句汉语和英语发音，便可以快速地训练出具有特定人音色特点的语音合成系统，这是以往的合成系统无法做到的。

[值班总编推荐] 治理“游烟”，一个经济学视角

[值班总编推荐] 中共中央政治局召开会议中共中央...

[值班总编推荐] 缅甸震后50小时与时间赛跑的中国...

温沙沙：师范生美育素养培育的价值、内涵与实施路径
　　【详细】
电视剧《北上》：年代剧的文化寻根
　　年代剧的叙事模式正逐步走出陈旧窠臼，涌现出融合多样题材和创新视角的新探索。《北上》的热播和好评说明了优秀文化题材的力量，当创作者找准了文化之“根”和情感之“魂”，观众自然会被其中的精神内涵所打动。【详细】
稳步扩大制度型开放
　　【详细】
一图读懂中国自主的知识体系
　　【详细】

漫话天下